将人类大脑活动中的想象语音转化为声音是一个具有挑战性和引人入胜的研究课题,它可以为人类通过大脑信号进行交流提供新的方式。通过侵入式测量口头语音数据,从大脑活动重建语音的努力已经显示出其潜力,然而,在重建想象语音方面却面临挑战。在本文中,我们提出了 NeuroTalk,它将想象语音的非侵入式脑信号转换为用户自己的声音。我们的模型用口头语音 EEG 进行训练,该模型被推广以适应想象语音领域,从而允许想象语音和作为基本事实的声音之间自然对应。在我们的框架中,自动语音识别解码器有助于分解生成的语音的音素,从而显示出从未见过的单词重建语音的潜力。我们的结果暗示了从人类 EEG 信号进行语音合成的潜力,不仅来自口头语音,而且来自想象语音的脑信号。
![arXiv:2301.07173v1 [eess.AS] 2023 年 1 月 2 日PDF文件第1页](/bimg/3/3aaa35d75a41d51b285f7660ed90b2e928ae1630.webp)
![arXiv:2301.07173v1 [eess.AS] 2023 年 1 月 2 日PDF文件第2页](/bimg/f/f827031950159d77865e2041e9118bfb4b03c01d.webp)
![arXiv:2301.07173v1 [eess.AS] 2023 年 1 月 2 日PDF文件第3页](/bimg/d/d6eed3ab3a2252eb105c7d1a10e55456b95a0971.webp)
![arXiv:2301.07173v1 [eess.AS] 2023 年 1 月 2 日PDF文件第4页](/bimg/a/a2b441ea7641be3afaa2ee7420bc8950d52634c5.webp)
![arXiv:2301.07173v1 [eess.AS] 2023 年 1 月 2 日PDF文件第5页](/bimg/a/ae5e3d791e0145e7983369f00926ef8c18e61cb9.webp)
